查看原文
其他

快手的LivePortrait - 视频驱动Avatar动画框架

renee创业狗 Renee 创业随笔
2024-10-09

看到的快手最近 GenAI 产品中都挺有意思的。例如,可灵视频(视频生成大模型,具备强大的视频生成能力,让用户可以轻松高效地完成艺术视频创作)、回森(一起K歌合唱吧,使用AI修音,在手机上完成KTV体验)。今天还看到一个上周开源的项目——LivePortrait,视频驱动Avatar动画框架。

实用场景:

  1. 从静态图像生成肖像动画
  2. 肖像视频编辑
  3. 眼睛和嘴唇的重定向
  • 眼睛重定向效果
  • 嘴唇重定向效果
  • 通用动物动画
  • 使用

    可以用 Huggingface 上的 LivePortrait 项目:

    1. 上传原始图像和表情视频

    2. 生成对应表情的视频图

    简介

    与主流的基于扩散的方法不同,团队探索并扩展了基于隐式关键点框架的潜力,这种框架有效地平衡了计算效率和可控性。在此基础上开发了一个名为 LivePortrait 的视频驱动肖像动画框架,重点在于更好的泛化性、可控性和实用性。为了提升生成质量和泛化能力,将训练数据扩大到大约 6900 万帧高质量图像,采用混合图像-视频训练策略,升级网络架构,并设计了更好的运动变换和优化目标。此外,团队发现紧凑的隐式关键点可以有效地表示一种混合形状,并精心提出了一个拼接和两个重定向模块,这些模块利用一个计算开销极小的小型 MLP 来增强可控性。实验结果表明,即使与基于扩散的方法相比,LivePortrait的框架仍然非常有效。生成速度在 RTX 4090 GPU 上使用 PyTorch 显著达到了 12.8ms。

    实验方法

    1. 第一阶段流程:基础模型训练

    • 优化外观提取器(𝐹)和运动提取器(𝑀)、变形模块(𝑊)以及解码器(𝐺)。
    • 在此阶段,模型从零开始训练。
  • 第二阶段流程:拼接和重定向模块训练

    • 在第一阶段训练基础模型后,冻结外观和运动提取器、变形模块和解码器。仅优化拼接模块和重定向模块。

    不同方法对比

    继续滑动看下一个
    Renee 创业随笔
    向上滑动看下一个

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存